اکتساب مهارت در یادگیری تقویتی رباتیک توسط عاملهای خودمختار
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات
- نویسنده فاطمه تلگردی
- استاد راهنما علی اکبر پویان سعید شیری قیداری علیرضا خلیلیان
- سال انتشار 1393
چکیده
یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. مشکل اینجاست که در بسیاری از کاربردهای واقعی، پاداش محیط با تاخیر بسیار زیادی به عامل داده می شود. مشکل دیگر این است که تا زمانی که عامل به یک سطح قابل قبول از یادگیری برسد، تمام حرکات آن تصادفی خواهد بود. ضمناً با پیچیده تر شدن محیط، تعداد وضعیت های مورد اکتشاف و پارامترهای تصمیم گیری افزایش پیدا می کند. تمامی این مسائل، اکتشاف را رویکردی زمان بر، با هزینه بسیار بالا و گاهی بسیار پرخطر کرده است. یک راه کار مورد پژوهش محققان در این حوزه، یادگیری کیفی است. در این پایان نامه، چارچوبی کلی برای یادگیری کیفی ارائه می شود و خصوصیات و اجزا آن معرفی می گردد. این چارچوب بر اساس یادگیری کیفی و تخمین پاداش ساختگی می باشد تا از فواید هر دو روش استفاده کند. چارچوب پیشنهادی آن چنان است که قابل تنظیم و انطباق با الگوریتم های مختلف، محیط های گسسته و پیوسته، ناوبری و غیر ناوبری باشد. سپس از چارچوب پیشنهادی یک نمونه ساخته شده، و روی محیط های محک ارزیابی گردیده است.
منابع مشابه
اکتساب مهارت در یادگیری تقویتی با استفاده از مدل های آماری خوشه بندی گراف
یادگیری تقویتی با مسئله یادگیری عامل هوشمند برای انتخاب اعمال به منظور بیشینه کردن کارایی عامل سروکار دارد. استفاده از مهارت ها در یادگیری تقویتی، سبب سرعت بخشیدن به کارکرد عامل می شود. یافتن اهداف میانی و ایجاد مهارت برای دست یابی به آنها، مسئله ای کلیدی در کشف خودکار مهارت می باشد. با کشف اهداف میانی و تعیین تابع سیاست دست یابی به آنها، عامل قادر به اکتشاف موثرتر ویادگیری سریع تر در کارهای دی...
15 صفحه اولتاثیر بازخورد مقایسه ای - اجتماعی بر اکتساب و تحکیم یادگیری یک مهارت ادراکی- حرکتی
پژوهش حاضر با هدف تعیین تاثیر بازخورد مقایسه ای-اجتماعی بر اکتساب و تحکیم یادگیری یک مهارت ادراکی-حرکتی در دانش آموزان پسر دبیرستانی انجام شد. در این تحقیق تعداد 36 دانش آموز دبیرستانی به عنوان نمونه های آماری بصورت تصادفی در سه گروه 12 نفری بازخورد مقایسه-اجتماعی مثبت، منفی و واقعی قرار گرفتند. پس از ثبت امتیازات پیش آزمون، در مرحله اکتساب که پنج روز به طول انجامید آزمودنی ها در هر روز تعداد د...
متن کاملاثر یادگیری قیاسی، آشکار و ترکیبی بر اکتساب، یادداری و انتقال مهارت حرکتی پیچیده
هدف از پژوهش حاضر، مقایسۀ اثر یادگیری قیاسی، آشکار و ترکیبی بر اکتساب، یادداری و انتقال مهارت پرتاب آزاد بسکتبال بود. بدینمنظور، 48 دانشآموز دختر 17ـ15 سال بهصورت تصادفی انتخاب شدند و براساس نمرات آزمون بارفیکس اصلاحشده به چهار گروه همگن 12 نفره تقسیم گردیدند و بهشکل تصادفی، تحت شرایط تمرینی مختلف (قیاسی، آشکار، آشکار ـ قیاسی و قیاسی ـ آشکار) قرار گرفتند. شرکتکنندگان پس از دو جلسه آشنای...
متن کاملتولید قواعد فازی احتمالی بهکمک یادگیری تقویتی
مهمترین بخش در یک سیستم فازی پایگاه قواعد آن است. یکی از مشکلات موجود در تولید قواعد فازی با دادههای آموزشی، وجود دادههای ناسازگار است زیرا در اینگونه دادهها چند خروجی برای وضعیتهای یکسان وجود دارد. لذا تولید قواعد و تصمیمگیری برای انتخاب تالی مناسب برای هر قاعده با چالش همراه خواهد بود. روشهای موجود از برآیند حالتهای ناسازگار استفاده میکنند که باعث تولید خروجی با مقدار میانگین تالیه...
متن کاملیک روش ترکیبی جدید یادگیری تقویتی فازی
در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه میشود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته میشود. هدف، یافتن مناسبترین عمل نامزد (تالی) برای هر قاعده میباشد. با استفاده از بردار شدت آتش قواعد فازی و ...
متن کاملتاثیر رنگ زمینه بر اکتساب و یادداری مهارت پرتاب دارت
مقدمه و هدف: با توجه به اینکه اجراهای ورزشی در محیط با رنگهای مختلف انجام میشود و تأثیرگذاری رنگ بر اجرای مهارت ورزشی تا حدودی مورد پذیرش واقع شده است، هدف از این پژوهش بررسی تأثیر رنگهای زمینه منتخب بر اکتساب و یادداری مهارت پرتاب دارت بود. روش شناسی: در این مطالعة نیمه تجربی از نوع کاربردی، از بین تمامی دانشجویان پسر دانشگاه فردوسی که شرایط ورود به تحقیق را داشتند 72 نفر به صورت تصادفی انت...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023